1. 凸函数
- 上凸函数
- f[(a+b)/2] ≥ [f(a)+f(b)]/2
- 当a≠b时
- f[(a+b)/2] > [f(a)+f(b)]/2
成立,那么称f(x)为严格的上凸函数,等号成立的条件当且仅当a=b,下凸函数与其类似。
- f[(a+b)/2] > [f(a)+f(b)]/2
2. Jensen不等式
- 如果f是上凸函数,X是随机变量,那么
- f(E[X]) ≥ E[f(X)].
- 如果f是严格上凸函数,那么
- E[f(X)] = f(E[X])
- 当且仅当p(X=E[X]),也就是说X是常量。
3. EM算法
3.1. Problem Definition
考虑一个参数估计问题,现有共n个训练样本,需有多个参数θ去拟合数据(高斯混合模型),那么这个log似然函数是
由于Θ中多个参数的某种关系,导致上面的log似然函数无法直接或梯度下降法求最大值时的Θ值。引入隐变量z,并使用Jensen不等式得到下界
(9)式紧下界为等号成立时,即随机变量
为常数。又因为
有
所以(9)成立的条件是
- Q(zi)=P(zi|yi, Θ)
- 即后验概率。
3.2. Algorithm Step
- E步骤 已知(初始化)Θ和样本数据yi,计算Q(zi)。
- M步骤 利用Q(zi)简化(9)中的多项式,从而可用梯度下降求偏导更新Θ值。
- E步骤 根据Θ计算Q(zi).
- M步骤 根据Q(zi)更新Θ.
- …
- 迭代直至收敛。